iT邦幫忙

2024 iThome 鐵人賽

DAY 0
0

Hello

Hi, 很高興認識你,這次希望透過實作的方式來加深自己對數據架構的認識,也算是給自己的一個新挑戰以及一個任務的結束。這篇文章希望提供的閱讀對象,會需要對AWS、數據工程、數據分析有初步認識,所以對每個工具或服務的前情提要不會太多,除非是我沒有太多接觸或不熟悉的,也因為工具是我預先指定好的,所以在內容中不會寫太多工具比較,如果有興趣了解工具選型,或是有其他想討論的內容也歡迎隨時聯繫我一起討論。

Scope

這次打算先完成一個基本的數據平台實作,包含:

  1. 資料源: 主要是以批次丟進 AWS S3 的方式
  2. 存儲: AWS S3 + Apache Iceberg & AWS Glue Data Catalog 作為 Data Lakehouse 的方案
    除了多認識 Iceberg 之外,也希望測試一些 Iceberg 特別的 Feature
  3. 運算: 使用 PySpark 作爲運算的框架,所以會涵蓋 AWS Glue 以及 AWS EMR 服務的使用

基本上盡量能把上面能做的寫完,再看進度串接應用情境,有想到特別的內容就再貼上來。

前置準備

在動手做之前,需要先準備:

  1. 綁好信用卡的 AWS Account (得要有這次不知道會花多少錢的心理準備XD)
  2. 我自己的 OS 是使用安裝好 Homebrew 的 macOS Sonoma 14.5,當然使用 Windows 也是可以
  3. Visual Studio Code & 以下的 Extensions
    a. SSH
    b. AWS Toolkit
    c. Terraform

以上都準備好了之後我們就開始吧~


下一篇
[Day 1] 網路架構
系列文
Re:從零開始的AWS雲端數據平台2
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言